ارائه یک روش جدید یادگیری تقویتی پیوسته با تاکید بر تحلیل ریاضی
thesis
- وزارت علوم، تحقیقات و فناوری - دانشگاه یزد - دانشکده برق و کامپیوتر
- author فرزانه قربانی
- adviser ولی درهمی حسین نظام آبادی پور
- Number of pages: First 15 pages
- publication year 1392
abstract
یکی از چالش های یادگیری تقویتی، عدم وجود الگوریتم های قابل اجرا در فضای حالت و عمل پیوسته است که دارای استدلال ریاضی باشند. در این پایان نامه سعی داریم با ارائه یک روش جدید یادگیری تقویتی پیوسته مبتنی بر معماری نقاد-تنها برای مسائل کنترل این چالش ها را برطرف کنیم. روش ارائه شده از ترکیب روش "تکرار سیاست کمترین مربعات" با یک سیستم فازی سوگنوی مرتبه صفر حاصل شده و "تکرار سیاست کمترین مربعات فازی" نامیده می شود. هر قاعده سیستم فازی داری چند تالی کاندید می باشد. هدف از آموزش، یافتن مناسب ترین تالی برای هر قاعده فازی است. با توجه به ساختاری که برای سیستم فازی در نظر گرفته شده است، این روش در زمره روش های یادگیری تقویتی فازی نقاد-تنها قرار دارد. توابع پایه حالت-عمل با توجه به شدت آتش و عملهای کاندید قواعد تعریف می شوند. روش تازه سازی پارامترهای وزن مربوط به تالی قواعد با استفاده از این توابع پایه و بهره گیری از الگوریتم تکرار سیاست کمترین مربعات، ارائه می شود. نشان داده می شود که توابع پایه حالت–عمل تعریف شده شرایط قضیه روش تکرار سیاست کمترین مربعات را برآورده می نمایند. لذا روش ارائه شده هم دارای تحلیل ریاضی است که به این وسیله یک کران خطا برای آن تعریف می شود و هم کارایی مناسبی دارد. نتایج شبیه سازی، حاکی از سرعت یادگیری بالاتر و نیز کیفیت عملکرد بهترِ روش تکرار سیاست کمترین مربعات فازی نسبت به دو روش مرتبط یادگیری کیوی فازی و یادگیری سارسای فازی می باشد. همچنین مزیت دیگر روش ارائه شده نسبت روش های مذکور، عدم نیاز به تعیین نرخ یادگیری است.
similar resources
یک روش ترکیبی جدید یادگیری تقویتی فازی
در این مقاله یک روش جدید یادگیری تقویتی پیوسته برای مسائل کنترل ارائه میشود. روش ارائه شده از ترکیب روش "تکرار سیاست کمترین مربعات " با یک سیستم فازی سوگنوی مرتبه صفر حاصل شده و "تکرار سیاست کمترین مربعات فازی" نامیده شده است. در اینجا برای هر قاعده فازی تعدادی عمل نامزد در نظر گرفته میشود. هدف، یافتن مناسبترین عمل نامزد (تالی) برای هر قاعده میباشد. با استفاده از بردار شدت آتش قواعد فازی و ...
full textیک روش چند عاملی جدید مبتنی بر یادگیری تقویتی برای شکلدهی ترافیک و تخصیص حافظه بافر در روترها
Normal 0 false false false EN-US X-NONE AR-SA MicrosoftInternetExplorer4 ...
full textارائه یک الگوریتم جدید برای پارک موازی خودرو مبتنی بر طراحی مسیر با انحنای پیوسته کلوتوئید
یکی از دستاوردهای صنعت خودرو در سالهای اخیر اضافه نمودن سیستم انجام پارک خودوند خودرو میباشد که این سیستم میتواند بدون دخالت یا با راهنمایی انسان خودرو را در محل مورد نظر پارک نماید. در این مقاله با ارایه یک الگوریتم جدید سعی شده تا با استفاده از خواص منحنی کلوتوئید، مسیر قابل پیمایشی برای حرکت خودرو به سمت جایگاه پارک طراحی شود. حرکت خودرو در این مسیرِ هموار به صورت پیوسته، با سرعت ثابت و ای...
full textتوسعه کنترلر هوشمند چراغهای راهنمایی بر پایه یادگیری تقویتی حالت پیوسته در محیط ترافیکی میکروسکوپیک
افزایش روزافزون تعداد خودروها و در پی آن ترافیکهای سنگین شهری چالش بزرگی را برای کنترل بهینه ترافیک شهری برای مهندسین ایجاد کرده است. روش مناسب برای کنترل بهینه ترافیک هرچه باشد یقیناً باید وفق پذیر بوده تا بتواند ترافیک شهری را که دارای طبیعت پویا، پیچیده و تغییرپذیر است را بهخوبی مدیریت نماید. در این راستا تمرکز اصلی تحقیق حاضر کنترل هوشمند و توزیع یافته چراغهای راهنمایی بر پایه یادگیری تقو...
full textارائه یک مبدل دو طرفه ایزوله جدید با جریان خروجی پیوسته
در این مقاله یک مبدل دو طرفه جدید ایزوله ارائه شده است. این مبدل از دو ترانسفورمر فوروارد و فلای بک تشکیل گردیده و تنها یک سوییچ در طرف اولیه و یک سوییچ در طرف ثانویه ترانسفورمر دارد. این مبدل به صورت PWM کنترل میگردد و از آنجایی که در هر دو حالت خاموش و روشن بودن سوییچها توان به خروجی منتقل میگردد، چگالی توان آن نسبت به مبدلهای قبلی بالاتر است. از طرفی مبدل مذکور قادر است که از هر دو طرف به ...
full textارائه یک مبدل دو طرفه ایزوله جدید با جریان خروجی پیوسته
در این مقاله یک مبدل دو طرفه جدید ایزوله ارائه شده است. این مبدل از دو ترانسفورمر فوروارد و فلای بک تشکیل گردیده و تنها یک سوییچ در طرف اولیه و یک سوییچ در طرف ثانویه ترانسفورمر دارد. این مبدل به صورت PWM کنترل میگردد و از آنجایی که در هر دو حالت خاموش و روشن بودن سوییچها توان به خروجی منتقل میگردد، چگالی توان آن نسبت به مبدلهای قبلی بالاتر است. از طرفی مبدل مذکور قادر است که از هر دو طرف به ...
full textMy Resources
document type: thesis
وزارت علوم، تحقیقات و فناوری - دانشگاه یزد - دانشکده برق و کامپیوتر
Hosted on Doprax cloud platform doprax.com
copyright © 2015-2023